Jacobs Sofia & Bauer Julie
Master
STPE/MV – UCA
Année académique 2025-2026
Dans le monde, on compte plus de 800 millions de personnes vivant à proximité d’un volcan dont 200 millions à moins de 30 km d’un volcan actif (CNRS, 2025). La caractérisation de l’aléa volcanique est donc essentielle pour la sureté des habitants en territoires volcaniques. Cela passe notamment par la compréhension de lien divers entre un volcan et le type de dépôts ou l’intensité éruptive qu’il produit. Notre étude se concentre sur la région méditerranéenne, en particulier sur deux édifices grecs et quatre édifices italiens, ces deux pays étant particulièrement connues pour leurs volcanismes très actifs et notamment plusieurs éruptions historiques. Les volcans italiens sont l’Etna (Sicile, Italie), le Vésuve (Naples, sud de l’Italie), Lipari et Vulcano (Iles Eoliennes, Sicile, Italie). Les volcans grecques sont le Santorin et le Nisyros (Iles Dodecanese, Grèce). Ici nous ne nous concentrerons que sur la période 2015 à 2025.
Nous avons les données de magnitudes, types de magma, profondeur du magma, le VEI, la classification et le volume estimé de produits pour chaque édifice volcanique en plus des coordonnées des éruptions pour chaque édifices. L’objectif est de comprendre si il existe un lien entre intensité de l’éruption (magnitude) et l’édifice volcanique afin de déterminer quelle population s’expose à un risque plus important. Il sera aussi particulièrement intéressant de regarder le lien possible entre volcans et type de magma car le risques lié à un volcan est en partie du au type de matériaux qu’il produit. Ces résultats pourrait également nous permettre de déterminer si les populations d’un volcan en particulier s’exposent à un risque accrue. Enfin, d’un point de vus purement recherche nous allons nous intéressé au lien entre édifice et profondeur du magma car c’est grâce à la détection du magma en profondeur que l’on peut anticiper une éruption. Egalement à la profondeur en fonction du type de magma mais cela nous permettra, au terme d’une étude pétrologique ultérieure de prédire des temps de remonté du magma et des durées pré-éruptifs afin d’alerter la population en cas d’éruption imminente si ce lien existe.
## Warning: le package 'ggplot2' a été compilé avec la version R 4.3.3
## Warning: le package 'tidyr' a été compilé avec la version R 4.3.3
## Warning: le package 'performance' a été compilé avec la version R 4.3.3
## Warning: le package 'car' a été compilé avec la version R 4.3.3
## Warning: le package 'carData' a été compilé avec la version R 4.3.3
## Warning: le package 'maps' a été compilé avec la version R 4.3.3
## Warning: le package 'sf' a été compilé avec la version R 4.3.3
## Warning: le package 'prettymapr' a été compilé avec la version R 4.3.3
## Warning: le package 'rnaturalearthdata' a été compilé avec la version R 4.3.3
## Warning: le package 'viridis' a été compilé avec la version R 4.3.3
## Warning: le package 'patchwork' a été compilé avec la version R 4.3.3
## Warning: le package 'geosphere' a été compilé avec la version R 4.3.3
## Warning: le package 'reshape2' a été compilé avec la version R 4.3.3
## Warning: le package 'cowplot' a été compilé avec la version R 4.3.3
## Warning: le package 'factoextra' a été compilé avec la version R 4.3.3
## Warning: le package 'FactoMineR' a été compilé avec la version R 4.3.3
## Warning: le package 'plotly' a été compilé avec la version R 4.3.3
## Warning: le package 'PerformanceAnalytics' a été compilé avec la version R
## 4.3.3
## Warning: le package 'xts' a été compilé avec la version R 4.3.3
## Warning: le package 'zoo' a été compilé avec la version R 4.3.3
## Warning: le package 'ade4' a été compilé avec la version R 4.3.3
## Warning: le package 'pheatmap' a été compilé avec la version R 4.3.3
## Warning: le package 'ggsci' a été compilé avec la version R 4.3.3
## 'data.frame': 47 obs. of 14 variables:
## $ Volcanoes : chr "Santorin" "Santorin" "Santorin" "Santorin" ...
## $ Event.ID : int 11946380 11933823 11933599 11933364 11405253 10724958 10878280 10813622 10813590 10757351 ...
## $ Date : chr "12-02-25" "09-02-25" "09-02-25" "08-02-25" ...
## $ Time : chr "08:37:47" "18:53:57" "01:35:15" "09:24:02" ...
## $ Latitude : num 36.4 36.4 36.5 36.4 36.4 ...
## $ Longitude : num 25.5 25.5 25.5 25.5 25.5 ...
## $ Depth : num 10 10 10 10 10 10 17.6 3.3 0 3.8 ...
## $ Mag.Type : chr "MA" "MA" "MA" "MA" ...
## $ Magnitude : num 4.3 4.7 4.5 4.6 4.2 4.2 1.4 1.3 1.2 1.9 ...
## $ Volume : num 7.98e+07 2.00e+08 1.26e+08 1.59e+08 6.34e+07 ...
## $ VEI.approximatif: int 3 3 3 3 3 3 1 1 1 1 ...
## $ Region : chr "DODECANESE ISLANDS" "DODECANESE ISLANDS" "DODECANESE ISLANDS" "DODECANESE ISLANDS" ...
## $ Country : chr "GREECE" "GREECE" "GREECE" "GREECE" ...
## $ Classification : chr "Vulcanien" "Vulcanien" "Vulcanien" "Vulcanien" ...
## Volcanoes Event.ID Date Time
## Etna : 7 10796353: 2 Length:47 Length:47
## Lipari : 9 11629587: 2 Class :character Class :character
## Nisyros :11 5112637 : 1 Mode :character Mode :character
## Santorin:13 5149922 : 1
## Vesuvio : 1 10570434: 1
## Vulcano : 6 10570525: 1
## (Other) :39
## Latitude Longitude Depth Mag.Type Magnitude
## Min. :36.32 Min. :14.49 Min. : 0.00 MA :14 Min. :1.20
## 1st Qu.:36.45 1st Qu.:14.96 1st Qu.: 7.20 MB :19 1st Qu.:1.80
## Median :36.67 Median :25.39 Median : 10.00 MB-MA: 3 Median :2.30
## Mean :37.40 Mean :20.70 Mean : 27.57 MBa : 1 Mean :2.76
## 3rd Qu.:38.39 3rd Qu.:25.51 3rd Qu.: 14.91 ML : 9 3rd Qu.:4.20
## Max. :40.79 Max. :27.25 Max. :225.42 MR : 1 Max. :5.30
##
## Volume VEI.approximatif Region Country
## Min. : 63396 1:24 DODECANESE ISLANDS:24 ITALY:23
## 1st Qu.: 252383 2: 9 SICILY :22 GREECE:24
## Median : 798105 3:13 SOUTHERN : 1
## Mean : 50123635 4: 1
## 3rd Qu.: 63395728
## Max. :798104926
##
## Classification
## Hawaien/Strombolien :24
## Strombolien/Vulcanien: 9
## Vulcanien :13
## Vulcanien/Plinien : 1
##
##
##
## 'data.frame': 22 obs. of 14 variables:
## $ Volcanoes : Factor w/ 6 levels "Etna","Lipari",..: 1 1 1 1 1 1 5 6 6 6 ...
## $ Event.ID : Factor w/ 45 levels "5112637","5149922",..: 31 30 29 28 35 36 17 41 24 21 ...
## $ Date : chr "17-08-15" "12-08-15" "12-08-15" "12-08-15" ...
## $ Time : chr "02:18:26" "11:41:46" "11:35:53" "03:56:14" ...
## $ Latitude : num 37.7 37.8 37.8 37.8 37.7 ...
## $ Longitude : num 15.1 15 15 15 15.1 ...
## $ Depth : num 7.2 29.9 28.6 30 10 ...
## $ Mag.Type : Factor w/ 6 levels "MA","MB","MB-MA",..: 2 2 2 2 1 1 2 1 2 2 ...
## $ Magnitude : num 1.5 1.4 1.5 1.5 4.3 1.8 2.2 4.4 1.3 1.2 ...
## $ Volume : num 126491 100475 126491 126491 79810493 ...
## $ VEI.approximatif: Factor w/ 4 levels "1","2","3","4": 1 1 1 1 3 1 1 3 1 1 ...
## $ Region : Factor w/ 3 levels "DODECANESE ISLANDS",..: 2 2 2 2 2 2 3 2 2 2 ...
## $ Country : Factor w/ 2 levels " ITALY","GREECE": 1 1 1 1 1 1 1 1 1 1 ...
## $ Classification : Factor w/ 4 levels "Hawaien/Strombolien",..: 1 1 1 1 3 1 1 3 1 1 ...
## 'data.frame': 24 obs. of 14 variables:
## $ Volcanoes : Factor w/ 6 levels "Etna","Lipari",..: 4 4 4 4 4 4 4 4 4 4 ...
## $ Event.ID : Factor w/ 45 levels "5112637","5149922",..: 45 44 43 42 38 16 33 23 22 18 ...
## $ Date : chr "12-02-25" "09-02-25" "09-02-25" "08-02-25" ...
## $ Time : chr "08:37:47" "18:53:57" "01:35:15" "09:24:02" ...
## $ Latitude : num 36.4 36.4 36.5 36.4 36.4 ...
## $ Longitude : num 25.5 25.5 25.5 25.5 25.5 ...
## $ Depth : num 10 10 10 10 10 10 17.6 3.3 0 3.8 ...
## $ Mag.Type : Factor w/ 6 levels "MA","MB","MB-MA",..: 1 1 1 1 1 1 5 5 5 5 ...
## $ Magnitude : num 4.3 4.7 4.5 4.6 4.2 4.2 1.4 1.3 1.2 1.9 ...
## $ Volume : num 7.98e+07 2.00e+08 1.26e+08 1.59e+08 6.34e+07 ...
## $ VEI.approximatif: Factor w/ 4 levels "1","2","3","4": 3 3 3 3 3 3 1 1 1 1 ...
## $ Region : Factor w/ 3 levels "DODECANESE ISLANDS",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Country : Factor w/ 2 levels " ITALY","GREECE": 2 2 2 2 2 2 2 2 2 2 ...
## $ Classification : Factor w/ 4 levels "Hawaien/Strombolien",..: 3 3 3 3 3 3 1 1 1 1 ...
## Group Variable Variance Mean
## 1 Global Depth 2683.43422 27.56902
## 2 Global Magnitude 1.56159 2.75957
## 3 Global Volume 15973504288128854.00000 50123634.88617
## 4 Santorin Depth 23.21269 7.44615
## 5 Santorin Magnitude 2.25859 2.87692
## 6 Santorin Volume 4908889462161985.00000 53385265.08462
## 7 Etna Depth 130.90810 19.41429
## 8 Etna Magnitude 1.07333 2.00000
## 9 Etna Volume 905672258098802.00000 11563260.61857
## 10 Vesuvio Depth NA 0.50000
## 11 Vesuvio Magnitude NA 2.20000
## 12 Vesuvio Volume NA 633957.28000
## 13 Vulcano Depth 10.43741 9.28700
## 14 Vulcano Magnitude 1.36967 2.21667
## 15 Vulcano Volume 1669085589528357.50000 17084959.71833
## 16 Lipari Depth 8245.75305 54.22689
## 17 Lipari Magnitude 0.84000 2.90000
## 18 Lipari Volume 1902945411863623.50000 23549175.67556
## 19 Nisyros Depth 3726.96190 47.16182
## 20 Nisyros Magnitude 1.45855 3.33636
## 21 Nisyros Volume 57457175635148752.00000 115070297.50455
En moyenne, Lipari génère des magmas qui viennent de plus profond et le Santorin les plus superficiels*. Nisyros est le volcan avec le plus grand volume de produit estimé en moyenne et Vulcano emet le moins sur une même période d’activité. La magnitude des éruptions est en moyenne plus importante pour Nisyros. Cela est cohérent car la magnitude est directement reliée au volume emis, plus le volume est important plus la magnitude le sera, hors Nisyros à le volume moyen le plus important donc la magnitude moyenne la plus importante. Cependant ce n’est pas Vulcano qui possède la plus faible moyenne des magnitudes mais l’Etna. Cela peut s’expliquer par le faite que l’Etna à plus érupter sur 2015-2025 par rapport à Vulcano pour un volume moyen de débris légèrement inférieur. La moyenne des magnitudes de l’Etna pourra donc être légèrement plus faible que celle de Vulcano.
Les valeurs de variance pour le volume et la magnitude sont ccohérentes par rapport au jeu de donné mais pour la profondeur, celles-ci sont beaucoup trop grande, cela s’explique par la présence d’outlier (7 point de donnée) de valeur beaucoup trop importante ou encore bien trop faibe qui donnent une dispersion des mesures exagérée.
On remarque qur pour le Vésuve nous n’avons qu’une seule éruption. Ainsi, nous ne pouvons pas calsuler de valeurs de dispersion et la profondeurs, la magnitude et le volume moyen seront les valeurs des données de l’éruption.
## Depth Magnitude Volume
## 5.180187e+01 1.249636e+00 1.263863e+08
## Depth Magnitude Volume
## 1.8789885 0.4528366 2.5214917
## # A tibble: 6 × 6
## Volcanoes mean_mag sd_mag min_mag max_mag median_mag
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Etna 2 1.04 1.4 4.3 1.5
## 2 Lipari 2.9 0.917 1.8 4.4 2.7
## 3 Nisyros 3.34 1.21 1.9 5.3 2.8
## 4 Santorin 2.88 1.50 1.2 4.7 1.9
## 5 Vesuvio 2.2 NA 2.2 2.2 2.2
## 6 Vulcano 2.22 1.17 1.2 4.4 2
Les volcans grecs porduisent une plus large gamme d’éruption de magnitudes différentes que les volacans Italiens et se sont égalment eux qui produisent les éruptions les plus intenses avec Lipari. Cependant, il n’y pas de grande difference entre les différents paramètres de dispersion des les volcans.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning in scale_y_log10(): log-10 transformation introduced infinite values.
## log-10 transformation introduced infinite values.
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_boxplot()`).
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_summary()`).
Pour *l’ensemble des volcans, hormis les 7 outliers visibles en rouge
sur le boxplot, la répartition des pofondeurs sur l’hitogramme est
symétique par rapport à une valeur centrale de 10 km. La **majorité de
nos magmas* proviennet donc de chambre localsiée entre 15 et 7
km ce qui reste relativement superficielle.
Nousn’avons pasde *pas de valeur abérente. On a une
réputation bimodale des données. Une première partie
des magnitudes se situe en dessous de 3, ce sont les
valeurs de magnétudes faibles et une seconde partie se
trouve au-dessus de 3 avec des valeurs dites
fortes.
Les fortes magnitudes ont une distribution sysmétrique
qui s’articule autour d’une valeur centrale de 4,3
tandis que les faibles magnitudes suivent aussi une
distribution sysmétrique autour de 1,8
mais reste moins marqué et s’étale dans l’intervalle 1 à
2,2.
## Warning in geom_bar(binwidth = 0.2, fill = "lightyellow", color = "black", :
## Ignoring unknown parameters: `binwidth`
La majorité des magmas sont basaltique (MB) avec quelques occurences
andésitique (MA) et latitique (ML=un magma latitique est un magma
basaltique avec une texture particulière, il n’y a pas de différence de
chimie importante). La série est basic et donc faiblement différencié.
En effet il n’y a quaiment pas de magma différencié rhyolique (MR). La
faible présence de basalte alcalin (MBa) révelle que les magmas générés
appartiennen à la série subalcaline. Enfin, il se produit un petit peu
de mélande car 3 magmas on uen composition intermédiaire entre
basaltique et andésitique (MB-MA).
Pour les volumes estimés, on montrent également une
répartition bimodale tres similaire à celle des
magnitudes avec une valeur intermétidaiure entre les faibles et
les forts volumes de 16,25 km3. Les forts
volumes s’articulent autour d’un mode de 18,7
km3 et la faibles volumes autoure de
12,5 km3 mais cela reste moins symétirque et forme plus
un plateau. Les volumes estimés sont utilisés pour déterminer la
magnitude de l’érution, il est donc logique qu’il suivent excatement la
meme distibution pour l’hitogramme et le boxplot.
## Warning in geom_bar(binwidth = 0.2, fill = "lightyellow", color = "black", :
## Ignoring unknown parameters: `binwidth`
Le VEI est une échelle de 1 à 8 donnant l’intensité d’une éruption
volcanique (1 tres peu intense et 8 extremement intense). Dans la
région, la majorité des éruptions sont de faible
intensité avec un VEI autour de 1 et
2 (plus de 30 cas), VEI 1 étant
majoritaire. On enregistre des éruption peu à moyennement
intense (3 à 4), mais elles restent minoritaire. Il n’y a aucune
éruption avec un VEI supérieure à 4, ce qui est rassurant puisque les
grosses éruptions ont une occurences de plusieurs centaines d’année et
sont donc difficilement visible sur une période de 10 ans.
Cette analyse univarié a permis de déterminer l’allure de chacune des variables du jeu données. Il est a présent possible d’étudier des liens possibles entre ces différentes données.
5 outliers sont visble ce qui confirme nos obeservation
faites dans l’univariée avec des points de profondeur beaucoup trop
importante. Il n’y a aucune corélation visible entre la
profondeur et la magnétude. Nous allons quand même effectuer un
test pour vérifeir notre hypothèse. Il n’est pas possible de faire une
ANOVA car nous avons de variables quantitatives et l’ANOVA compare deux
moyennes de deux goupres, hors ici nous cherchons à corréler deux
varables. Nous effectuons donc un test de
corrélation.
## [1] 0.3235965
On choist un test de corrélation de Spearman car les données ne sont pas distribuées normalement (voir histogramme). Il s’agit d’un test qui est dit non paramétrique. Ce ne sont pas les données en tant que telle qui sont utilisées mais leurs rangs.
Le coefficient de corrélation est de 0.32. C’est une corrélation positive mais la valuer reste faible car comprise entre 0.1 et 0.3 à plus ou moins 0.02, on a donc une faible corrélation entre la profondeur et la magnitude.
##
## Call:
## lm(formula = log(Volume) ~ Magnitude, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.066e-08 -2.747e-09 8.390e-10 2.393e-09 2.790e-08
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.294e+00 4.917e-09 1.687e+09 <2e-16 ***
## Magnitude 2.303e+00 1.626e-09 1.416e+09 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.378e-08 on 45 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 2.005e+18 on 1 and 45 DF, p-value: < 2.2e-16
On observe une corrélation positive entre la magnitude et le volume estimé. En effet, plus la magnitude est importante plus le volume estimé l’est également. Le modèle linéaire confirme cette observation avec un R2 de 1 ce qui est très élevé. Cependant, il existe une realtion théorique entre volume estimé et magnitude. La magnitude est calculer à parit du volume estimée sur le terrain. Ils sont donc mathéatiquement reléi l’un à l’autre et cette correlétion poistive ne reflete en rien un lien naturel entre les deux varibale mais traduits une simple équation mathématiques.
Une relation peut également être étudiée entre le volume estimé et la profondeur. Cependant, étant donné que le volume a été estimé à partir de la magnitude, les deux graphiques montrent exactement les mêmes tendances. Cette similitude se remarque également au niveau de la valeur du coefficient de corrélation de Spearman qui vaut 0.32.
## [1] 0.3235965
Il
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé
On remarque à nouveau que pour le Vésuve, on ne peut interpréter car on a qu’une seule varleur. Plusieurs remarques sont possibles. Tout d’abords, les magnitudes par volcans sont dépendantes, sinon l’ensembles des médianes seraient alignées.
De plus, la médiane et la moyenne ne coincident pas, ce qui témoignent d’une asymétries des distributions.
Dans certains cas, les courbes de densité montrent également des bimodalités visibles.
Il est possible d’observer que certains groupes ont des distributions bimodal et non pas juste normal.
Si on veut observer une différence entre les volcans par rapport à la magnitude, on effectuer un test non-paramétrique. Un ANOVA ne fonctionnerait pas ici car nous n’avons une répartition normale de nos donnée de magnitude.
Il serait intéressant de savoir si il y a bien une différence significative entre ces différents volcans par rapport à la magnitude. Pour cela, le t.test ne fonctionne pas car celui-ci est pour des échantillons avec deux catégories dans cette étude, il y a six volcans différents. C’est donc une ANOVA qui va être réalisée.
L’ANOVA (Analysis of Variance) permet de comparer les moyennes de plusieurs groupes pour déterminer s’il existe des différences significatives entre elles. Cependant, pour que les résultats de l’ANOVA soient valides, certaines conditions doivent être remplies : 1. Indépendance des observations : Les données de chaque groupe doivent être indépendantes les unes des autres. 2. Normalité : La distribution des résidus (différences entre les valeurs observées et les valeurs prédites) doit suivre une distribution normale. 3.** Homogénéité des variances** : Les variances des différents groupes doivent être similaires (homoscédasticité).
## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique :
## 21
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 5 1.2315 0.312
## 41
## Df Sum Sq Mean Sq F value Pr(>F)
## Volcanoes 5 10.14 2.027 1.347 0.264
## Residuals 41 61.70 1.505
Le summary de l’ANOVA, donne une valeur de p-value de 0.264. Celle-ci n’est pas significative (p-value > 0.05), il n’y a donc pas de différence significative entre les volcans et les magnitudes.
Le lien entre la magnitude et le type de magma peut également être étudié. ==> Pour MBa et MR, il n’y a qu’une seule valeur de magnitude ==> Ma présente les magnitudes les plus élevées ==> MB, MB-MA, ML ont des magnitudes plus similaire entre elles
Au niveau du graphique de densité, il est possible de voir que : ==> MA présente une distribution binomiale mais la plupart de l’information se trouve quand même entre 4 et 5 au niveau des magnitudes
==> MBa,MB,ML la distribution est bi-nomiale
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé
L’ANOVA doit ainsi respecter différents critères. Dans ce cas-ci : L’homoscédadasticité est respectée, il est possible de voir que la ligne rouge sur le graphique est presque à l’horizontale La normalité des résidus est globalement respectée. Cependant, certaines valeurs sont fortement éloignées de la droite centrale comme le 20 et le 42. Au niveau du quatrième graphique, l’ensemble des donnée située dans les bornes de la distance cook. Cependant, les valeurs 20, 40 et 42 sont tout de même proche de ces extrémités. Cela peut causer un effet de levier.
## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique :
## 43, 44
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 5 0.6567 0.6581
## 41
L’ANOVA est ainsi réalisée, et celle-ci donne une valeur significative (p-valeur<0.05). Il y a ainsi une différences entre les différents types de magmas au niveau de la magnitude.
## Df Sum Sq Mean Sq F value Pr(>F)
## Mag.Type 5 50.18 10.036 19 9.66e-10 ***
## Residuals 41 21.65 0.528
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé
Il n’est pas possible d’observer une différence entre les
différents types de magma.
## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique :
## 38
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 1.5679 0.211
## 43
Les conditions de l’anova ne sont pas respectées, les résidus ne sont pas normalement distribués. Certaines des valerus atteignes presque la Cook distance. Il n’est ainsi pas possible de réaliser l’anova mais il est possible de réaliser un autre test qui lui est non paramétriques. Il s’agit du test Kruskall-walis.
##
## Kruskal-Wallis rank sum test
##
## data: Depth by Classification
## Kruskal-Wallis chi-squared = 8.028, df = 3, p-value = 0.04544
Le test de kruskal-wallis est signifcatif. Il faut préciser est sensible au différence de distributions donc si celles-ci sont fortement différentes comme c’est le cas ici il est possible qu’il n’y est pas uniquement une différence au niveau des médianes.
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé
## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique :
## 43, 44
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 5 0.3496 0.8796
## 41
Les conditions de l’anova ne sont pas respectées, il y a la présence de quatres outliers qui jouent un role important de levier.
##
## Kruskal-Wallis rank sum test
##
## data: Depth by Mag.Type
## Kruskal-Wallis chi-squared = 10.332, df = 5, p-value = 0.06634
Le test de kruskal-wallis n’est pas significatif. Il n’y a donc pas de différence entre les profondeurs moyennes des différents types de magma.
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé
## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique :
## 21
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 5 1.2315 0.312
## 41
identique que la magnitude car directement extrapolé de ça
## Df Sum Sq Mean Sq F value Pr(>F)
## Volcanoes 5 53.7 10.748 1.347 0.264
## Residuals 41 327.1 7.978
pas de différence significative entre les volumes moyens des différents volcans
Dans cette partie de cette étude, c’est le lien entre les variables qualitatives qui va être étudié.
Il est interessant d’analyser si il y a un lien entre le VEI et les volcans. Pour cela, on va réaliser un graphique de répartition du VEI en fonction des volcans. Il est possible d’observer que la majorité des éruptions ont un VEI compris entre 1 et 3. Nisyros est celui qui présente le VEI le plus haut.
Un autre point important qu’il faut soulever c’est que la plupart des
volcans ont un VEI faible, entre 1 et 2 en majorité.
Un test peut être réalisé afin de savoir si il y a un lien entre le VEI
et les différents types de volcans. Il s’agit d’un test de
Chi2. Pour pouvoir faire cela, il faut d’abord réaliser un
tableau de contingence.
## Warning in chisq.test(tabVEI): L’approximation du Chi-2 est peut-être
## incorrecte
##
## Pearson's Chi-squared test
##
## data: tabVEI
## X-squared = 20.97, df = 15, p-value = 0.1378
Il s’agit d’un khi-deux pour tester l’indépendance entre deux variables qualitatives. Les hépytohèses : H0 : il n’y a pas de relation entre le VEI et les différents volcans. H1 : il y a une relation entre le VEI et les différents volcans.
Dans ce cas-ci, le test du chi 2 est significatif car p-valeur > 0.05. Cela veut dire qu’il n’y a pas de relation significatif entre le VEI et les volcans.
Il est possible de voir que MA et MB sont les types de magmas les
plus fréquents.
##
## MA MB MB-MA MBa ML MR
## Etna 2 5 0 0 0 0
## Lipari 2 7 0 0 0 0
## Nisyros 3 1 3 1 2 1
## Santorin 6 0 0 0 7 0
## Vesuvio 0 1 0 0 0 0
## Vulcano 1 5 0 0 0 0
## Warning in chisq.test(tab): L’approximation du Chi-2 est peut-être incorrecte
##
## Pearson's Chi-squared test
##
## data: tab
## X-squared = 47.268, df = 25, p-value = 0.004559
Une ACF est une analyse factorielle des correspondances. Cela permet d’analyser la relation entre deux variables qualitatives. Il est ainsi important qu’il est la présence d’une relation entre les deux. C’est pour cela que l’AFC est réalisé à partir des variables Volcanoes et Mag.Type.
Le but de l’AFC est de réduire la dimensionnalité des données tout en gardant l’écart d’indépendance entre les variables.
Afin de pouvoir savoir le nombres d’axes qu’il faut retenir, un scree plot est réalisé. Celui-ci permet d’observer que ce sont bien les deux premiers axes qui contiennent toute l’information (~99%).
Il est également intéressant de regarder quelles variables contribuents
le plus à quels axes. Pour la première dimension :
Les volcans qui contribuent le plus sont Nisyros, Santorin et Lipari
Les types de magmas qui contribuent le plus sont MA et MB
Pour la deuxième dimension
Les volcans qui contribuent le plus sont Nisyros et Santorin
Les types de magmas qui contribuent le plus sont MB-MA et ML
Le biplot permet de visualiser les relations entre les modalités des
deux variables. Il montre :
les variables situées à droite sont principalement bien représentées.
Ma et Vesuvio, elles ont une qualité de représentation plus faible. Ce qui correspond bien avec les graphiques précédent qui montraient que Ma et le Vesuve n’était pas dans les variables les plus représentées dans les deux premières dimensions.
une discrimination forte entre les volcans italiens et les volcans égéens principalement expliquée par Dim1
une discrimination entre Nisyros et Santorin principalement expliquée par Dim 2
les volcans italiens présentent des caractéristiques communes, peu de dispersion
les volcans grecs présentent une variabilité géochimique plus importantes.
Le type MA est majoritaire dans la classification des volcans explosifs
Le type MB est majoritaire dans la classification des volcans effusifs
ML apparait uniquement dans la classification des volcans explosifs
MB-MA et MR ne sont pas fortement représentés
Le test chi2 est également réalisé pour savoir s’il y a une relation
entre les deux variables qualitatives. Comme pour la relation
précédente, la p-valeur <0.05. Ce qui veut dire qu’il y a bien une
relation entre les deux variables.
## Warning in chisq.test(tabmg): L’approximation du Chi-2 est peut-être incorrecte
##
## Pearson's Chi-squared test
##
## data: tabmg
## X-squared = 51.032, df = 15, p-value = 8.156e-06
L’AFC est réalisée à partir des variables Classification et Mag.Type. Un scree plot est réalisé afin de savoir quelle composante principale prend en charge le plus de variabilité. Les deux premières composantes prennent 100% de la variabilité.
Pour la première dimension :
Pour la deuxième dimension :
Les classifications qui contribuent le plus sont Strombolien/Vulcanien et Hawaiien/Strombolien
Les types de magmas qui contribuent le plus sont MB-MA, ML, MR
Le biplot permet de visualiser les relations entre les modalités des
deux variables.I Il montre :
l’ensemble des variables sont bien représentées sauf Vulcanien/Plinien qui a un cos 2 inférieur à 0.9975.
Séparation nette entre la classification des volcans plus et moins exploisifs (Dim 1)
MA est associée aux volcans plus explosifs (Vulcanien)
Séparation au niveau des types Strombolien/Vulcanien et Hawaien/Strombolien (Dim 2)
MB-MA, ML, MR et MBa sont associés aux volcans moins explosifs (Hawaien/Strombolien)
Précédement, ce sont les analyses avec une pour deux variables qui était étudié. Il est pourtant également d’étudier les relations entre plus de trois variables différentes.
Le graphique montre la répartition des types de magmas en fonction du volcans, des laves ainsi que la classification. Ce graphique permet d’observer :
Ma est le type de magma le plus fréquent que nivau de la classification Vulcanien au niveau des différents volcans
Nysiros est le seul volcan qui présente un comportement de type Vulcanien/Plinien
les types d’éruption les plus fréquent sont Hawaien/Strombolien et Vulcanien.
ML (magma latitique) n’apparait que dans la classificition Hawaien/Strombalien et au niveau de Santorin et un peu Nisyros.
L’ACM est une analyse en composantes multiples. Celle-ci permet d’analyser les relations entre plusieurs variables qualitatives. Ici, l’ACM est réalisée à partir des variables Classification, Mag.Type, Volcanoes.
Le sreeplot permet d’observer qu’il faut 10 composantes principales pour expliquer 100% de la variance.
Un biplot peut également être réaliser pour l’ACM. Avant toute chose, il est interessant de regarder que l’échelle au niveau du cos2 n’est pas du tout la même que précédement. Les valeurs ici sont beaucoup plus faible.
L’ACP est une analyse en composantes principales. Celle-ci permet d’analyser les relations entre plusieurs variables quantitatives. Ici, l’ACP est réalisée à partir des variables Depth, Magnitude et Volume.
Une matrice de corrélation est réalisée afin d’observer les relations entre les différentes variables quantitatives. Il est possible d’observer comme précédement qu’une forte corrélation positive exciste entre la magntiude et le volume car celui-ci est calculé à partir de la magnitude. En ce qui concerne le lien entre la profondeur et la magnitude, la corrélation est moins importante mais tout de même précente.
Il y a trois variables, il y a ainsi trois composantes principales. Le scree plot permet d’observer que les deux premières composantes gardent 89,6% de la variabilité totale.
Le graphique de contribution permet d’observer quelles variables
contribuent le plus à chaque axe : - Les variables Magntiude et Volume
contribuent fortement à la première dimension - La profondeur contribue
plus à la deuxième.
## # weights: 18 (10 variable)
## initial value 84.212695
## iter 10 value 46.628048
## iter 20 value 43.825916
## iter 30 value 43.782381
## iter 40 value 43.777747
## final value 43.777738
## converged
## # weights: 24 (15 variable)
## initial value 84.212695
## iter 10 value 58.183881
## iter 20 value 40.829368
## iter 30 value 39.174485
## iter 40 value 38.803877
## iter 50 value 38.033323
## iter 60 value 37.175656
## iter 70 value 37.002697
## iter 80 value 36.995105
## iter 80 value 36.995104
## final value 36.995103
## converged
## # weights: 30 (20 variable)
## initial value 84.212695
## iter 10 value 66.936296
## iter 20 value 42.534523
## iter 30 value 36.799665
## iter 40 value 35.978994
## iter 50 value 35.795664
## iter 60 value 35.695288
## iter 70 value 35.683543
## iter 80 value 35.681671
## iter 80 value 35.681671
## iter 90 value 35.681042
## iter 90 value 35.681042
## final value 35.681041
## converged
## Call:
## multinom(formula = Mag.Type ~ Magnitude, data = df)
##
## Coefficients:
## (Intercept) Magnitude
## MB 7.9791331 -2.3808021
## MB-MA 5.1613275 -1.9561389
## MBa 4.5040789 -2.1427666
## ML 10.0892443 -3.8848339
## MR -0.3276988 -0.5635537
##
## Std. Errors:
## (Intercept) Magnitude
## MB 2.310111 0.6654632
## MB-MA 2.681323 0.8353120
## MBa 3.698775 1.3561103
## ML 2.864594 1.1264971
## MR 4.679710 1.1559406
##
## Residual Deviance: 87.55548
## AIC: 107.5555
## Call:
## multinom(formula = Mag.Type ~ Magnitude + Volume, data = df)
##
## Coefficients:
## (Intercept) Magnitude Volume
## MB 7.401465 -2.234865 3.179331e-09
## MB-MA -6.772634 3.899192 -1.466192e-06
## MBa -28.203600 16.288105 -1.030399e-05
## ML 5.849504 -1.189251 -2.378357e-06
## MR -42.213343 14.455785 -3.827594e-07
##
## Std. Errors:
## (Intercept) Magnitude Volume
## MB 1.887545e-12 4.092203e-12 3.343892e-09
## MB-MA 2.633999e-13 6.293499e-13 3.937788e-07
## MBa 1.524227e-12 3.511470e-12 1.298389e-06
## ML 1.439821e-12 2.976019e-12 9.211112e-07
## MR 4.391267e-15 1.270691e-14 5.397798e-08
##
## Residual Deviance: 73.99021
## AIC: 103.9902
Le problème est le suivant, les écarts types sont beaucoup trop petits. Le modèle va donc sur estimé les coefficients des classes qui ne sont pas du tout supperposée. Même si il y a un petit chevauchement, les classes extrêmes sont parfaitement séparés, c’est un cas de sépration quasi-complètes
## Call:
## multinom(formula = Mag.Type ~ Magnitude + Volume + Depth, data = df)
##
## Coefficients:
## (Intercept) Magnitude Volume Depth
## MB 9.779586 -3.2175327 6.998216e-09 0.014501386
## MB-MA 3.105365 -0.8405317 -1.491643e-07 0.006557366
## MBa 3.883101 -1.1650574 -7.204142e-07 -0.057922265
## ML 12.915233 -4.5042055 -5.604711e-07 -0.107984702
## MR -17.592455 5.4514757 -1.849723e-07 0.024109062
##
## Std. Errors:
## (Intercept) Magnitude Volume Depth
## MB 9.455184e-13 2.091317e-12 3.123000e-09 8.595129e-12
## MB-MA 1.500088e-13 3.580221e-13 2.822823e-07 1.994950e-12
## MBa 6.425951e-13 1.587894e-12 9.500639e-07 5.318407e-12
## ML 9.907638e-13 2.145424e-12 8.213435e-07 7.583608e-12
## MR 7.023510e-15 1.980056e-14 3.763402e-08 2.055269e-13
##
## Residual Deviance: 71.36208
## AIC: 111.3621
## # weights: 18 (10 variable)
## initial value 84.212695
## iter 10 value 73.493847
## iter 20 value 73.392324
## iter 20 value 73.392323
## iter 20 value 73.392323
## final value 73.392323
## converged
## # weights: 24 (15 variable)
## initial value 84.212695
## iter 10 value 72.032811
## iter 20 value 66.154712
## iter 30 value 64.222258
## iter 40 value 63.352309
## iter 50 value 61.914800
## iter 60 value 61.854424
## final value 61.854220
## converged
## # weights: 30 (20 variable)
## initial value 84.212695
## iter 10 value 77.149481
## iter 20 value 68.892467
## iter 20 value 68.892467
## iter 30 value 66.588175
## iter 40 value 61.388685
## iter 50 value 59.169584
## iter 60 value 58.948808
## iter 70 value 58.946386
## iter 80 value 58.945997
## final value 58.945920
## converged
## Call:
## multinom(formula = Volcanoes ~ Magnitude, data = df)
##
## Coefficients:
## (Intercept) Magnitude
## Lipari -1.727460 0.8304696
## Nisyros -2.388697 1.1069601
## Santorin -1.316179 0.8153867
## Vesuvio -2.502658 0.2658910
## Vulcano -0.751356 0.2842475
##
## Std. Errors:
## (Intercept) Magnitude
## Lipari 1.365340 0.5634052
## Nisyros 1.389314 0.5564331
## Santorin 1.279180 0.5432557
## Vesuvio 2.732954 1.1606852
## Vulcano 1.460465 0.6435445
##
## Residual Deviance: 146.7846
## AIC: 166.7846
## Call:
## multinom(formula = Volcanoes ~ Magnitude + Depth, data = df)
##
## Coefficients:
## (Intercept) Magnitude Depth
## Lipari -1.62911858 0.6859990 0.007765020
## Nisyros -2.36151020 1.0450550 0.004131336
## Santorin 0.25281932 1.0198837 -0.222490154
## Vesuvio -54.81191047 38.3276758 -30.214586538
## Vulcano 0.06722019 0.3246761 -0.076240470
##
## Std. Errors:
## (Intercept) Magnitude Depth
## Lipari 1.366649e+00 0.5889084503 1.407657e-02
## Nisyros 1.385689e+00 0.5730876585 1.411167e-02
## Santorin 1.437868e+00 0.5967029277 1.168977e-01
## Vesuvio 7.811958e-05 0.0001022174 4.397617e-06
## Vulcano 1.650759e+00 0.6638357135 7.364973e-02
##
## Residual Deviance: 123.7084
## AIC: 153.7084
## Call:
## multinom(formula = Volcanoes ~ Magnitude + Depth + Volume, data = df)
##
## Coefficients:
## (Intercept) Magnitude Depth Volume
## Lipari -3.9364329 1.8814804 0.005999006 -3.401437e-08
## Nisyros -1.7004383 0.7471163 0.005119559 1.954442e-09
## Santorin 0.2418836 1.2338850 -0.277966093 -3.263410e-09
## Vesuvio -32.8117830 21.0934835 -5.169065923 -1.053318e-06
## Vulcano 0.1227154 0.3568609 -0.084041162 -1.791268e-09
##
## Std. Errors:
## (Intercept) Magnitude Depth Volume
## Lipari 1.342974e-16 5.715474e-16 8.771503e-15 1.144768e-08
## Nisyros 3.828643e-17 1.578499e-16 4.666461e-15 7.372347e-09
## Santorin 2.539544e-17 1.116800e-16 2.693747e-16 7.569380e-09
## Vesuvio 1.339155e-21 2.695431e-21 1.400279e-21 6.989576e-16
## Vulcano 4.449231e-17 2.014909e-16 4.507306e-16 9.903441e-09
##
## Residual Deviance: 117.8918
## AIC: 157.8918
## Group.1 Volume Depth Magnitude
## 1 1 798104926 5.47000 5.300000
## 2 2 204033567 54.10000 4.700000
## 3 3 89117804 46.76740 4.330000
## 4 4 1649308 20.00909 2.030303